查看原文
其他

GitHub首席工程师:别再逼着用户跟AI聊天了!

Amelia W Founder Park 2023-05-07

AI 产品的交互必须是对话和聊天吗?
每当本文作者跟人聊起 ChatGPT,她就忍不住大喷特喷,对 chatbot 的用户界面毫无保留地进行一番批评。
这对她而言是常态,过去几个月里她对无数人表达了类似的观点和看法。自从 ChatGPT 爆火之后,她内心设计师的一面就充满了表达欲。
所以她写作本文,探讨 Chatbot 不会成为用户界面的未来的几点原因

作者 Amelia Wattenberger 是 GitHub 的首席研究工程师,她是 GitHub 实验项目 GitHub Next 的核心成员之一,参与开发了 GitHub Copilot 的诸多功能。她的自我介绍是「生活在 Web 开发、设计和数据可视化的交汇处。」

GitHub Next 是 GitHub 内部的一支实验性质团队,使用新技术开发能够帮助 coder 提高生产力、升级生产方式的新工具和新产品。
Founder Park 对内容进行了编译,有删减。

对话没有预设用途

用户不知道它能做什么

预设用途(affordance):又被翻译为功能可供性、可操作暗示、直观功能等,原本是心理学概念,意指人知觉到的内容是事物提供的行为可能,而事物提供的这种行为可能就被称为 affordance,比如原始人看到树棍会觉得它具有武器的属性。在 UI 设计领域,比如 app 的登陆按钮,就有一种「进入」的预设用途。
当我面对 ChatGPT 先知时,我看到一张茫然的脸。它知道什么?我该如何提问?当它回应时,它又那么自信,我无法确定它是否真正理解了我的问题或者这些信息来自何处。
好的工具会清楚地告诉我们如何使用它。更重要的是,告诉我们不应该如何使用。比如一双手套,它以手的形式展现出来,所以我们会把它戴在手上。
材料的特点也会告诉我们更多信息,金属网格的手套会保护我们防止物理伤害,橡胶手套是防止化学伤害,皮革手套很适合骑摩托的时候戴。
相较而言,在一个典型的聊天界面上,我们唯一得到的提示是应该在文本框中输入字符。界面看起来与 Google 搜索框、登录表单,付款表单没什么不一样。
当然,用户花时间就能学习到哪些 Prompt 效果好,哪些不好。但了解哪些 Prompt 有效的代价,仍然由每个用户承担。而这些内容原本可以直接融入界面中。
 

提示太难写了

它可以变成 UI 的一部分吗?

LLM 太简单了:我们把文本发送给它们,它们就会返回文本。

它简单到就像是在产品上糊一层纸一样解决包装问题。
但很快,我们就会厌倦整天打字。
仔细想想,你在提示中输入的所有内容都是上下文的一部分。
我们看一个 Prompt 教学的案例:
你是谁:我想让你充当解梦师。
你应该如何回复:我将向你描述我的梦,你根据梦中出现的符号和主题提供解释。
你不应该如何回复:不要提供关于做梦人的个人意见或假设。
你应该如何回复 :只需要根据给定的信息提供事实解释。
我们应该如何开始:我的第一个梦是被一只巨型蜘蛛追赶。
就算提示工程再怎么普及,这仍然是一个复杂的工作。
我们怎么才能让用户更轻松地给出上下文信息呢?

我正在研究一种辅助用户写作的 AI 界面。像一位优秀的写作导师一样,它会在需要改进的内容方面提供一些建议,例如「让这个过渡更流畅」或「在这里添加一些具体的例子」。

但并不是所有的作家都有相同的目的!不是所有内容都有相同的受众或口吻。
为了更好地定制个性化回复,我为用户添加了一些控件,让他们指定使用情境:需要类型的写作?人物有谁?整体风格应该是什么感觉?……
如果一定要使用聊天对话的界面,我们也可以将操作简化。
最近,我的团队发布了一个名为 Copilot for Docs 的原型产品,这个工具探索了一些使技术文档更便于为开发人员使用的方法。
我认为它可以分为两部分:
找到与用户问题最相关的信息,并使用这些信息综合成一个答案。
当我们形成一个答案时,我们可以根据特定的提问者定制不同的答案。
作为对这个想法第一次粗略探索,我们添加了一些滑块
菜鸟程序员肯定不想拿到一个资深程序员才能理解的回答。(静态文本已死!准备好迎接这样的未来吧!)
作为 Copilot for Docs 的开发者,我们很清楚它最擅长什么,以及什么样的信息会导向最有用的回复。我们花时间将尽可能多的信息嵌入到界面中,而不是让用户绞尽脑汁地将其破解到他们提问的每个问题中。
 

滚来滚去

累死了

自然语言对于概括的方向很好用:比如“把我送到正确的街区”这种。但一旦ChatGPT做出了回应,我该如何让它把我带到正确的房子前面去?
假设你要求 ChatGPT 帮助你提高写作水平。以《瓦尔登湖》中的这一段作为例子:
我一直认为瓦尔登湖是一个做生意的好地方,不仅仅是因为靠近铁路和冰贸易;它还提供了其他可能不透露出来的优势;它是一个优良港口,有不错的基础。没有涅瓦沼泽需要填平;尽管必须在每个地方自己打桩。据说洪水、西风和涅瓦河的冰会将圣彼得堡从地球表面扫除。
我们要求 ChatGPT「让这段文字更好」。它回复道:
我相信瓦尔登湖为商业提供了一个充满前景的机会,不仅因为它靠近铁路和冰贸易,还因为其他未公开的优势。它拥有优良的港口设施和坚实的基础,无需像涅瓦河沼泽那样进行广泛的沼泽填充。然而,我们应该谨慎对待所有独特的好处。值得注意的是,圣彼得堡也面临着被洪水、西风和涅瓦河的冰摧毁的风险。
接下来,我们让它「用更生动的语言重写这段文字」。它回复道:
我将瓦尔登湖视为一个非常出色的商业目的地,不仅因为它靠近铁路和冰贸易,还因为它提供了其他未显现的优势。它拥有出色的港口设施和坚实的基础,无需像涅瓦河沼泽那样进行广泛的沼泽填充。但是,必须谨慎地揭示这些得天独厚的优势。此外,也不得不认清圣彼得堡面临的危险:洪水、西风和涅瓦河的冰可能会使这座城市消失。
即使这个例子相对来说并不长,要弄清楚这三段有哪些不同也需要花费不少精力。
我们被迫在回复之间来回滚动,逐行阅读。
作为一个一直在思考 AI 如何帮助编辑代码或润色文章的人,我认为它必须提供一个跟踪修改,并能够以更实用的方式提供反馈的系统。
  

问一个问题等半天

创作的 flow 都没了

以画家作画作为例子。画家会有两个动作:

1、近距离在画板画布上绘画;
2、拉开距离欣赏成果,进行评估和下一步规划。
这样的流程——实践和评估的循环,适用于任何「手艺」,比如编程和写作。
好的工具应该让用户自由在实践和评估之间切换。
当我使用 chatbot 时,我被迫频繁地在两种模式之间切换:我问一个问题(实践),然后阅读一个回答(评估)。每隔几秒我就得停下来阅读它的回复,这让我失去了 flow 的状态。
等待回复也是 chatbot 的一个负面因素。
作为开发人员,一个冗长的编译循环时需要耗费我大量的时间和耐心,以至于我经常找不到正常的节奏和流程。
Chatbot 也是一样。
 

把工具交给人

让用户发挥价值

内容消费趋势是:更短、更有冲击感。
人们有几分钟空闲时,他们会打开 TikTok 看一个化妆视频。睡觉前的几分钟,很多人也会在 Twitter 刷当天一两百字的热门推文。
我看到大多数使用大模型构建的产品,都把我们在这条路上又向前推了一把:当 AI 可以写篇文章时,我们为什么要写?当 AI 可以编写代码时,我们为什么要思考编写的逻辑?
当我尝试使用这些新产品时,我就像电影《机器人总动员》中的人类一样被「传送」进去。我的大脑变得无意识,只会按下那个神奇的魔法按钮或猛击 Tab 键。而当我最终从这种僵尸状态中惊醒时,我一点也不喜欢我创造的东西。
在我看来,任务需要多少人工输入有一个频谱:
当一个任务主要依靠人工输入时,人类掌控着局面。他们是做出关键决策的人,而且很明显,他们最终对结果负责。
但一旦我们将大部分工作转移到机器上,人类就不再掌控局面了。在无人区里,人类仍然需要做出决策,但他们无法控制结果。在频谱的远端,用户感觉自己像是机器操作员:他们只要按下按钮,机器就会完成工作。操作机器也不需要太多技巧。
自动化任务对于不需要人类输入的例行工作将是惊人的。但是,如果这些任务只能部分自动化,那么界面就非常关键。
我希望看到更多的工具,而不是操作的机器 —— 我们应该拥抱我们的人性,而不是盲目地提高效率。我们应该让人们更灵巧地使用 AI 工具,而不是成为 AI 生成内容的审查员。
我相信真正改变游戏规则的产品,与简单的内容生成关系不大。
我们应该构建一些真正能够提供建议来帮助我们清晰思考的工具。比如通过操纵潜在空间中的几何(一种使用AI生成给定数据集的新变体的技术)来塑造文学作品,通过幕后链接模型(结合使用多个AI模型)让我们更容易地在视频而非像素中操纵视觉内容。
以上,希望这些内容能说服你 Chatbot 是大模型糟糕的用户界面。至少我们可以为 Chatbot 界面添加一些控件、信息和提示,让它们更方便使用。
我迫不及待地想看到这个领域变得更加成熟,并开始创造能够包含我们人类能力的 AI 工具。


文章发出后,在技术社区 Hacker News 上引发了大量讨论,Founder Park 整理了部分讨论信息。
以下各要点来自不同的评论者。

作者观点评价

  • 「好的工具会清楚地告诉我们如何使用它」,我觉得这句话很奇怪,编程语言很少对如何使用它们有意见。例如,我想「取消我的订阅」,我的下标被取消就可以了,我不需要弄清楚子菜单中的哪个子菜单具有神奇的「结束订阅」按钮。
  • 如果认为 ChatGPT 是一个「先知」的话,那态度就已经错了。它是一个工具,如果都不知道如何使用这个工具,就不要再抱怨不喜欢它了。如果连如何使用工具都不知道,那产生垃圾结果是必然的事情。
  • 我认为像 ChatGPT 这样的界面引人注目的首要特质就是:你不需要知道如何使用它,只需使用你已经充分掌握的人类语言。如果你不明白它说的话,让它解释一下就可以。从本质上讲,它使预设用途功能过时了。
  • 这不是一个很有说服力的论点,Copilot for Docs 中的滑块或其他任何东西都不会取代 Chatbot,而只是稍微扩展 Chatbot,如果 Chatbot 继续改进的话,这些滑块之类的东西压根无用。
  • 「希望我已经说服你,Chatbot 对大模型来说是一个糟糕的界面」,我对此没有疑问。只是我依然不同意,而且这篇文章没有提到的是「Chatbot 不是未来」。Chatbot 对大模型来说确实是一个糟糕的界面,但它一定能成为我必须访问的 top3 网站中占据一席之地。
  • 我认为这篇文章的重点是聊天并不是 AI 真正通用的用途。AI 的强大无可置疑,只是文章想说明自由形式的对话没有未来。作者并不是说 GPT 毫无用处,而是说我们还没有把它放在最佳环境中。这也是为什么每个人都对「提示工程」感兴趣的原因,因为它可以更好地帮助我们利用 AI。最大的用户价值仍将比我们现在拥有的开放式聊天UI高出一个级别。


    对话是未来吗?

  • 我认为 Chatbot 是未来,但作者的观点依然有效。它确实不提供预设用途,但是 Chatbot 提供了一种以前不可能的渐进式披露和直接交互形式。之前的工具栏和菜单提供了预设用途,但用户仍然需要知道调用什么内容以及使用它们的顺序。比如「我想将此文件作为 PDF 通过电子邮件发送,同时打印」这个指令在聊天 UX 中可能比在基于菜单的 UX 中容易得多。
  • 我认为作者的观点非常正确。Chatbot 根本无法做任何事情,空文本输入也无法引导用户了解它能做什么,以及它擅长什么。仅仅因为系统有一个大模型可以与之交互,并不意味着它会突然支持用户想要完成的任何所需操作。
  • 聊天不是一个通俗优秀的界面。但这是一个很好的默认形式,因为它是完全自由的。使用大模型为当前的任务设计用户界面应该很容易。
  • 与上下文相关的建议选项(只需单击一下即可操作)以及自由格式输入框将成为常态。人们期待和所有 APP 聊天。他们将看到一个输入框,所有 APP 可以理解自然语言并以最有用的方式响应。
  • 某种程度上自由格式文本输入比结构化输入更好。

    一个例子是:人们更喜欢用简单的搜索框,而不是复杂的高级搜索表单,更不要说过去的门户网站。
    不过用户会对 Chatbot 期望很高,当你要求它解释它的推理时,大模型永远不知道它为什么要解释它所做的事情,但它无论如何都会试图给出一个合理的解释。虽然错误,但仍然能够帮助用户了解他们之前不知道 Chatbot 能做的事。


    未来 AI 形态设想

  • 我认为未来的界面是生活的智能助手,它可以给我们工作和生活上的建议。推动这些建议的是所有个人数据,以及用户可以用自然语言提供给助手的目标和价值观。我们将生活在一个 AI 和人类共同生活并携手做出决策的世界。
  • 未来可能是即时生成根据用户学习的偏好定制的前端。动机源于人类是糟糕的学习者,这样完全省去了学习新界面风格的麻烦。在极限情况下,有可能实时生成一个完整的世界,实现扎克伯格的梦想——一个完全孤独的 matrix。
  • 如果遥远的未来(100 年之后)出现了能够使用口语交谈的合成人形生物,那么 Chatbot 就只是人类通往与 AI 进行更高级通信形式道路上的一个途径点。






关注 Founder Park,我们将持续推出更全面更深度的大模型相关讨论与报道。

如果你有投身大模型创业的想法,欢迎加入我们的大模型相关领域交流群,来一起探讨大模型时代创业的共识和认知。

长按识别二维码填写入群申请表

关于交流群:

在 ChatGPT 发布后,我们迎来了一个全新的创业时代,似乎又回到了移动互联网早期——大量产品的方向和定义还不清楚的时代,我们希望把更多愿意思考和有创业意向的人聚集在一起,连接更多大模型领域的 doer(实干家),让更多有价值的认知在这里流动、碰撞、凝结,孵化出更多优秀的产品和项目。

Founder Park 计划搭建一个大模型相关领域的交流社区,面向有志于在大模型相关领域创业的创业者、产品经理、工程师、学者及投资人,围绕大模型相关创业的新项目、新赛道进行交流探讨。

在这里,你可以获得大模型相关领域的最新动态、高质量的对话交流,结识更多高净值的创业人群,同时,极客公园也会为优秀的项目提供资金、人才及其他资源的支持。




更多阅读

针对数据安全问题,微软将推出私有版ChatGPT,价格贵10倍

图灵奖得主、谷歌副总裁 Hinton 离职,对毕生工作感到后悔和恐惧

从电脑、汽车、相机的发展史,看AR/VR产品如何跨越鸿沟

Ilya 斯坦福访谈:AI意识,开源和 OpenAI 商业化,AI研究的未来

AGI 时代的创业公司新形态:11 人的 Midjourney 不是偶然

开启 AIGC 时代的那个人,一分钱都没赚到


转载原创文章请添加微信:geekparker‍

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存